Sesgos distribucionales en post-entrenamiento: análisis markoviano
El post-entrenamiento con RLVR y ORM/PRM refuerza sesgos distribucionales. La exploración preserva trayectorias raras. Análisis markoviano.
El post-entrenamiento con RLVR y ORM/PRM refuerza sesgos distribucionales. La exploración preserva trayectorias raras. Análisis markoviano.